Dans ce module, nous passons du paradigme traditionnel de la calibration par ajustement des poids à l'univers dynamique de l'apprentissage en contexte (ICL). Nous explorons comment les grands modèles linguistiques (LLM) maîtrisent une tâche non pas en modifiant leur architecture interne, mais en exploitant la structure du prompt lui-même pour naviguer dans des espaces latents complexes.
1. Du simple enseignement à la démonstration concrète
Alors qu'une instruction fournit une orientation générale, l'« imitation » via des paires entrée-sortie $(x, y)$ agit comme un guide non paramétrique. Ces exemples servent d'ancres statistiques qui réduisent la distribution de probabilité du modèle, atténuant ainsi l'ambiguïté inhérente aux instructions brutes en langage naturel.
2. Les mécanismes de l'attention
L'ICL repose sur le mécanisme d'attention du Transformer pour effectuer une « induction de tâche ». En identifiant des régularités dans votre séquence fournie, le modèle localise une correspondance fonctionnelle précise dans son espace à haute dimension, lui permettant d'imiter des styles et structures avec une grande précision.
Goal: Provide a three-exemplar few-shot prompt that teaches the model a specific "Concise Executive" style, rather than just a generic professional tone.
Adjectives like "Concise" are subjective and have broad probability distributions; examples provide a concrete structural template that the attention mechanism can emulate with mathematical precision.